چگونه کلام را از نویزها و صداهای دیگر تشخیص می دهیم

یافته‌ها نشان می‌دهد انسان‌ها از مدارهای عصبی پراکنده و کم مصرف برای شنوایی صداهای فضای محیط استفاده می‌کنند. امکان کنترل دستگاه‌های هوشمند نیز اغلب از طریق یک برنامه در گوشی های تلفن یا یک دیوایس کنترل گر صوتی متصل به اینترنت، قابل دستیابی است.

همشهری آنلاین -یکتا فراهانی : مطالعه جدید بومی سازی، صدای انسان را دوباره تعریف می کند. این شبکه نه تنها صداها را مشخص می‌کند، بلکه گفتار را هم از نویز پس‌زمینه جدا می‌کند و به این ترتیب مشکل تفکیک صدا در مهمانی های پر سر و صدا را که دستگاه‌های شنوایی و گوشی‌های هوشمند با آن مواجه هستند، برطرف می‌کند.

این یافته ها می توانند در طراحی سمعک ها و دستیارهای دیجیتال متحول شوند و آنها را سازگارتر و کارآمدتر کنند.

تشخیص منبع صدا

تحقیقات نشان می‌دهد سمعک‌ها و دستگاه‌های هوشمند را می‌توان نه با تقلید از فرآیندهای پیچیده زبان انسان، بلکه با استفاده از تکنیک‌های ساده‌تر و مستقیم‌تر پردازش صدا بهبود بخشید.

در دهه ۱۹۴۰، یک مدل مهندسی توسعه یافته نشان می دهد که چگونه انسان ها می توانند منبع صوتی را بر اساس تفاوت تنها چند ده میلیونم ثانیه در زمانی که صدا به گوش ما می رسد، مکان یابی کرد.
این مدل بر این تئوری کار می کرد که ما باید مجموعه ای از آشکارسازهای تخصصی داشته باشیم تابتوانیم تشخیص دهیم منبع صداهای مختلف از کجاست.

بیشتر بخوانیم:

شبکه عصبی پراکنده‌ حیوانات

مقاله تحقیقاتی جدیدی منتشر شده در Current Biology توسط محققان دانشگاه مک کواری در نهایت نشان داد که ایده یک شبکه عصبی اختصاص داده شده به شنوایی فضایی به تنهایی کفایت نمی کند.

نویسنده اصلی، استاد برجسته شنوایی دانشگاه Macquarie، دیوید مک آلپاین، ۲۵ سال قبل ثابت کرده است حیوانات دیگر از شبکه عصبی بسیار پراکنده‌تری استفاده می‌کنند. اما نشان دادن آن در عمل در انسان دشوارتر بود.

چگونگی تشخیص صداها در انسان

دیوید مک آلپاین و تیمش برای اولین بار از طریق ترکیب یک آزمایش شنوایی تخصصی، تصویربرداری پیشرفته از مغز و مقایسه با مغز پستانداران دیگر از جمله میمون‌های رزوس نشان دادند که انسان‌ها هم می توانند از شبکه‌های ساده‌تری برای این کار استفاده ‌کنند.

پروفسور مک آلپاین می گوید: ما دوست داریم فکر کنیم که مغز ما باید از هر نظر بسیار پیشرفته تر از حیوانات دیگر باشد، اما این درست به نظر نمی رسد.
در حال حاضر ما توانسته ایم نشان دهیم که ژربیل ها مانند خوکچه هندی هستند، خوکچه های هندی مانند میمون های رزوس هستند و میمون های رزوس هم از این نظر مانند انسان هستند.

چگونه کلام را از نویزها و صداهای دیگر تشخیص می دهیم

شبکه عصبی تفکیک گفتار از صدا

این تیم تحقیقاتی همچنین ثابت کرد که همان شبکه عصبی، گفتار را از صداهای پس‌زمینه جدا می‌کند؛ یافته‌ای که هم برای طراحی دستگاه‌های شنوایی و هم برای دستیارهای الکترونیکی تلفن‌های ما مهم به شمار می رود.

تشخیص یک صدا در فضای شلوغ برای ما دشوار است. پروفسور مک آلپاین می‌گوید آخرین یافته‌های تیمش نشان می‌دهد که به جای تمرکز بر مدل‌های زبان بزرگ (LLM) که در حال حاضر استفاده می‌شود، باید رویکردی بسیار ساده‌تری را در پیش گرفت.

همچنین مهم آن است که بتوانیم منبع صدا را تشخیص دهیم و برای انجام این کار، ما به مغز زبانی «عمیق ذهن» نیاز نداریم. اما حیوانات دیگر می توانند این کار را انجام دهند.

ضمن آنکه زمانی که ما در حال گوش دادن هستیم، مغز ما در تمام مدت صدا را ردیابی نمی کند؛ کاری که پردازنده های بزرگ زبان سعی در انجام آن دارند.

گام بعدی برای تیم، شناسایی حداقل اطلاعاتی است که می تواند در یک صدا منتقل شود.